除了 Hugging Face 提供的 Transformers ,全球還有許多其他 LLM(大型語言模型)模組與框架,每個都有不同的特點和應用場景
由 OpenAI 開發,GPT-4 是目前最先進的商業 LLM,並提供 ChatGPT API,可用於對話、內容創作、程式碼生成等等
import openai
openai.api_key = "你的 API 金鑰"
response = openai.ChatCompletion.create(
model="gpt-4",
messages=[{"role": "user", "content": "請解釋量子物理"}]
)
print(response["choices"][0]["message"]["content"])
由 Google DeepMind 開發,PaLM 2 是 Google Bard 基礎模型,Gemini 1.5 是最新版本,提供強大的多模態能力。例如:處理文本、圖像、音訊等等,可透過 Google AI Studio 使用 API
Meta(Facebook)開源的 LLM,提供 7B、13B、65B 參數版本,主要用於開放社群的 AI 研究,可在 Hugging Face 下載
下載 LLaMA 2 模型(Hugging Face)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")
Mistral AI 是法國的 AI 研究機構,推出了 Mistral 7B 和 Mixtral 8x7B(類似 GPT-4)
Mixtral 採用「Mixture of Experts(MoE)」架構,提高效能與效率
開源模型下載(Hugging Face)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B")
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B")
由 Anthropic 公司開發,強調「AI 安全性」和「對齊性」Claude 3 擁有強大推理能力,適用於對話應用。目前主要透過 Anthropic API 使用(需申請 API 金鑰)
由 BigScience 社群開發,第一個真正開放的 GPT-3 級 LLM,提供 176B 參數版本,可在 Hugging Face 下載並運行
使用範例
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("bigscience/bloom")
tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom")
由阿布達比科技研究所(TII)開發,適合開源 NLP 應用,Falcon 180B 是全球最大開源 LLM 之一
最流行的 LLM 框架,支援 GPT、BERT、LLaMA、T5 等等,適合微調(Fine-Tuning)和推理(Inference)
微軟開發的 LLM 加速工具,提升訓練效率,適合大規模 LLM(例如:GPT-4、LLaMA 2)
NVIDIA 開發的 LLM 訓練框架,用大規模分佈式訓練,可訓練數千億參數的 LLM(例如:GPT-4 級別)
開源 LLM 訓練框架,支援混合精度訓練與記憶體優化,由 HPC-AI Tech 團隊開發
平台 | 主要功能 | 代表模型 |
---|---|---|
OpenAI API |
提供 GPT-4 API | GPT-4 / GPT-3.5 |
Google AI Studio |
提供 Gemini API | Gemini 1.5 |
Hugging Face Inference API |
Hugging Face 模型託管 | BLOOM / LLaMA / Falcon |
Anthropic API |
Claude 模型 API | Claude 3 |
AWS Bedrock |
雲端 LLM 服務 | Meta LLaMA / Anthropic Claude |
Cohere API |
企業 LLM 服務 | Command R+ |
如果想用最強
LLM → GPT-4、Gemini 1.5、Claude 3(商業 API)如果想用開源模型
→ LLaMA 2、Mistral 7B、BLOOM(Hugging Face 可下載)如果想要自己訓練模型
→ Megatron-LM、DeepSpeed、Colossal-AI(適合大規模 LLM 訓練)如果想微調(Fine-Tuning)現有LLM
→ Hugging Face Transformers(最簡單易用)